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摘 要 : 计算 机 辅助 肺癌 诊断 对 于 肺癌 的 早期 发 现 及 提早 治疗 具有 重要 意义 。 提 出 一 种 基于 密度 分 布 的 特征 评估 算法 ， 
同时 引入 模式 识别 模型 来 评估 该 方法 的 效率 。 首 先 ， 从 肺 部 肿瘤 图 像 中 随机 提取 像素 块 集 ， 通 过 区- 均值 聚 类 算法 将 
其 分 为 10 类 ， 根 据 CT 图 像 中 肺 结 节 像素 值 和 聚 类 中 心 的 关系 ， 提 取出 10 维特 征 向 量 ， 利 用 随机 森林 分 类 器 进行 模 
型 训练 ， 进 而 判断 肺 结 节 良 恶性 水 平 。 通 过 CT 图 像 公 开 数 据 集 LIDC-IDRI 实验 表明 分 类 平均 精度 达到 0.9008。 实 验 
结果 对 比分 析 表 明 ， 提 出 的 特征 表达 方法 具有 更 优 的 分 类 效果 和 更 高 的 鲁 棒 性 
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Pulmonary nodule image grey density distribution feature extraction algorithm and 
adenocarcinoma benign/malignant classification 


Vanbang Le!, Zhu Yu", Zheng Bingbing!, Yang Dawei?, Ren Xiaodong!, Thiminhchinh Ngo? 
(1. School of Information Science & Engineering, East China University of Science & Technology, Shanghai 200237, China; 2. 
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Abstract: Aimed-at lung nodule Benign/Malignant classification, an effective grey scale density distribution feature extraction 
algorithm which was combined with pattern recognition models to evaluate the classification system was proposed. The proposed 
feature extraction algorithm first collected a large number of blocks from lung tumor images and determined the distance matrix 
by calculating the relationships among the image blocks. Then, K-means clustering methods was used to classify the current 
image blocks and obtained 10 cluster centers. After that, calculated the distribution density features by mapping CT value of 
nodule image pixels with the 10 cluster centers and extracted a 10-dimensional feature vector. Finally, the extracted feature 
vectors were divided into training and testing set to identify lung adenocarcinomas risk levels by Random Forest classification 
model. The classification framework was evaluated in LIDC-IDRI dataset, the average accuracy reached to 0.9008. The proposed 
method outperforms the most recent techniques, and the experimental results show great robustness of the proposed method for 
different lung CT image datasets. 
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里 技术 对 肺 部 CT 图 像 进行 分 析 已 经 成 为 热点 研究 方向 。 肺 部 
CT 图 像 计算 机 辅助 诊断 系统 中 主要 包含 肺 结 节 检 测 ， 分 割 ， 
研究 中 心 和 卫生 组 织 的 调查 显示 ， 上 肺癌 ”分 类 等 研究 项 目 。 其 中 提升 微小 肺 腺 结 节 【〈 病 灶 直 径 <30mm ) 
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已 经 成 为 全 世界 致死 率 最 高 的 第 一 大 癌症 。 目 前 胸腔 扫描 图 像 的 诊断 和 识别 水 平 能 显著 的 提高 肺癌 的 诊断 准确 率 以 便 为 临床 
技术 的 应 用 范围 越 来 越 广泛 。 通 过 分 析 CT (computed 医生 提供 更 加 准确 的 诊断 建议 ， 所 以 其 一 直 是 图 像 处 理 领 域 的 
tomography) 图像 的 特征 发 现 早 期 肺 结 节 并 且 及 时 给 出 正确 的 ERG 

诊断 、 治 疗 ， 从 而 提高 病 患者 的 生存 率 ， 因 此 通过 数字 图 像 处 辅助 诊断 系统 中 肺 结 节 分 割 一 直 为 最 重要 的 步 又 之 一 ， 对 
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肺 结 节 良 /恶性 分 类 影响 很 大 。 常 见 的 肺 结 节 的 分 割 方法 为 灰 ” Thickness 表示 切片 厚度 〈 单 位 为 毫米 ); Pixel Spacing 表示 像 
度 阔 值 法 、GRAPH-CUTS 、 水 平 集 、 深 度 学 习 等 。 而 主要 的 素 中 心间 的 物理 间距 (单位 为 毫米 )。 肺 结 节 的 精确 边缘 坐标 
算法 验证 数据 为 LIDC-IDRIPI、ELCAPBI、NLSTI 等 。 借 助 分 。 及 其 特征 标注 一 般 由 4 位 放射 科 医 生 实现 ， 标 注 结果 很 显然 是 
割 后 的 结 节 图 片 能 够 在 一 定 程度 上 评估 结 节 的 后 续 增 长 趋势 及 存在 一 定 的 差异 的 。 从 XML 文件 获取 肺 结 节 区 域 时 ， 被 选择 
良 恶 性 病变 水 平 品 。 的 目标 标注 为 最 大 面积 的 区 域 ， 即 
肺 结 节 良 /恶性 分 类 由 在 给 医生 提供 科学 、 可 靠 的 辅助 分 
类 结果 ， 使 诊断 过 程 更 加 精准 并 且 有 效 的 降低 医生 的 阅 片 工作 
量 。 肺 结 节 分 类 的 基础 为 图 像 特征 提取 方法 ， 通 过 图 像 特征 本 文中 从 LIDC-IDRI 大 规模 的 肺 结 节 样 本 数量 选取 出 一 部 
与 分 类 器 结合 进行 训练 和 测试 。 而 常见 的 分 类 器 主要 包含 。 分 作为 研究 对 象 ， 选 取 对 象 的 共同 点 是 均 为 小 型 肺 结 节 ， 最 大 
SVMS, KNNU! 、 随 机 森林 轩 等 。 临 床 医学 中 从 CT 值 分 布 角 ”长 径 均 小 于 20mm， 共 1285 肺 结 节 样 本 。 研 究 对 象 数据 中 ， 
度 可 将 肺 结 节 分 为 磨 玻 璃 型 、 半 实质 型 及 实质 型 的 ， 而 从 危险 像素 间距 及 片 间距 分 布 分 别 从 0.5 至 0.8mm 与 0.6mm 至 5.0mm, 
程度 来 看 可 分 为 良性 和 恶性 肺 结 节 。Han 等 人 外 以 LIDC 数据 长 径 范 围 为 [2.79mm, 15.77mm]。 肺 结 节 最 重要 的 评估 参数 一 
库 为 研究 对 象 ， 通 过 提取 肺 结 节 的 2D/3D 纹理 (Harralick 纹理 危险 程度 被 分 为 5 个 等 级 (rank 1~5)， 实 验 中 其 样本 数量 分 
特征 ) 及 几何 特征 〈 圆 度 、 外 接 算 形 充实 度 等 ) 将 肺 结 节 分 为 。 别 为 147/390/387/250/119， 共 1285 个 肺 结 节 。 使 用 Hanh R 
良性 /恶性 两 类 。 实 验 结果 的 最 大 ROC 指数 为 92.7%。Dharallo ”恶性 规划 方案 ， 形 成 3 种 良 恶 性 先 验 定义 方案 ,分 别 为 
根据 肺 结 节 的 几何 和 Harralick 纹理 特征 将 LIDC-IDRI 数据 的 Configuration 1,2,3 (CF 1, 2, 3)。 其 中 ，CF1 的 良性 与 恶性 结 
样本 集 分 为 良性 和 恶性 两 类 ， 其 最 优 AUC (Area Under Curve) ” 节 分 别 由 rank 1, 2 和 rank 4, 5 的 样本 组 成 ，CF2 的 良性 样本 为 
值 达 到 了 0.9505。 康 奈 尔 大 学 的 Reeves[ 使 用 46 维 空间 特征 。 ”rank 1,2, 3 组 成 ， 恶 性 样本 为 rank 4 和 5; CF3 则 将 rank 3 的 
对 PLIB (public lung image database) 和 NLST (national lung 肺 结 节 定 义 为 恶性 ， 即 rank 1, 2 的 样本 为 良性 ，rank 3, 4,5 的 
screening trial database) 实现 肺 结 节 良 恶性 分 类 。 实 验 表 明 在 。” 样本 为 恶性 。LIDC-IDRI 数据 集 样本 详细 信息 统计 如 表 1 所 示 。 
参数 最 优 的 前 提 下 ， 其 分 类 准确 率 达 到 了 70%。 梅 奥 医 疗 中 ， 表 1 LIDC-IDRI 部 分 样本 及 不 同 数据 子 集 基 本 信息 
生理 与 生物 医学 团队 在 研究 成 果 中 介绍 了 CANARY Table 1 LIDC-IDRI partial samples and basic information of different subset of data 


nodule = arc max ( mark?" | ; 2 1-4) (1) 
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(computer aided nodule assessment and risk yield) 系统 4 ， 其 Benign Malignant 

对 NLST 进行 密度 聚 类 分 析 ， 并 对 病 患 经 过 S 年 的 跟踪 研究 ， ae 样本 Rams 样本 

提出 了 计算 机 辅助 肺 结 节 分 类 与 风险 预测 结论 。Maldonado0a Sub-set 1 CF1 — "pem 475 agus 180 

提出 一 种 肺 结 节 图 像 密度 分 布 计算 方法 用 于 CANARY 的 分 类 (LS 1) CF2 PAF 802 ag 180 

模块 中 ， 该 特征 描述 肺 结 节 的 HU Chounsfield unit) 值 分 布 情 G-10)mm CF3 Pr 475 guis 507 

况 ， 非 常 有 借鉴 意义 。 太 原理 工大 学 的 裴 博 D93 使 用 基于 双向 Sub-set 2 CF1 Par 54 USE 189 

隶属 度 函 数 的 模糊 支持 向 量 机 ， 综 合 考虑 肺 结 节 的 灰 度 、 纹 理 (LS 2) CE2 Tey 114 atge 189 

及 形状 特征 ， 实 现 了 83% 的 识别 准确 率 和 10% 的 误诊 率 。 (10-20)mm CE Per 54 EE 249 
为 提高 肺 结 节 良 /恶性 的 分 类 性 能 ， 本 文中 提出 一 种 基于 CFI ‘12 529 agus 369 

图 像 子 块 集 的 肺 结 节 图 像 灰 度 密度 分 布 特征 提取 模型 。 首 先 从 All nodules ^ CF2 P~ 916 45? 369 

肺 结 节 图 像 集中 获取 子 块 集 ， 计 算 该 数据 集 的 自 相 关 和 矩阵 并 使 CF3 Par 529 Gus) 796 

用 无 监督 聚 类 算法 对 自 相 关 和 矩阵 进行 聚 类 。 从 而 获得 图 像 子 块 针对 不 同 尺寸 下 的 分 类 性 能 分 析 ， 本 文 将 肺 结 节 进 一 步 分 

对 应 的 标签 ， 然 后 通过 寻找 目标 测试 像素 最 匹配 的 子 块 计算 测 为 两 个 数据 子 集 Sub-set 1 和 2 (LIDC-IDRI Sub-set, LS)， 其 中 


试图 像 每 一 像素 的 标签 。 最 后 统计 、 生 成 肺 结 节 图 像 的 灰 度 密 。 ”LS1 中 的 肺 结 节 尺寸 范围 从 ~3mm 至 ~10mm 而 LS2 肺 结 节 的 从 


度 分 布 特征 ， 并 结合 随机 森林 分 类 器 对 数据 集 分 类 。 ~1lmm 至 ~20mm。 通 过 对 统计 LS 和 LS2 分 类 性 能 的 差异 及 详 
ag 的 分 析 ， 本 文 总 结 了 
1 ”材料 与 方法 


MR 


过 
图 像 特征 对 识别 不 同 尺 寸 肺 结 节 的 影响 。 
1.2 ” 肺 结 节 图 像 砍 度 密度 分 布 特征 
1.1 实验 材料 肺 部 CT 影像 中 ， 可 疑 区 域 的 灰 度 级 分 布 影响 到 肺 结 节 的 
LIDC-IDRI 肺 部 CT 公开 数据 库 (The lung image database — 定位 和 分 类 。 因 此 灰 度 密度 分 布 是 肺 结 节 图 像 危 险 程度 重要 的 
consortium and image database resource initiative) 为 目前 较 大 、 判决 指标 之 一 。 图 像 的 灰 度 密度 分 布 指 的 是 图 像 中 像素 值 与 周 


常用 的 肺 CT 公开 数据 库 。LIDC-IDRI 数据 库 从 The Cancer 弱 邻 近 点 之 间 的 关系 ， 其 表征 着 图 像 任意 局 部 区 域 灰 度 值 出 现 
Imaging Archive (TCIA) 官网 下 载 ， 肺 结 节 的 边缘 坐标 及 特征 的 强度 及 其 幅度 。 图 像 中 密集 出 现 高 灰 度 值 的 区 域 为 高 密度 区 
可 以 从 附带 的 *.XML 文件 中 提取 。LIDC-IDRI 中 ， 肺 部 CT Éd — 域 ， 而 高 灰 度 值 像素 较 稀 疏 的 则 为 低 密度 区 域 。 


像 尺 寸 均 为 512x512 〈 单 位 为 HU 值 )， 其 重要 的 参数 为 : Slice 
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1.2. 图 像 单元 库 获 取 方 法 及 其 自 相 关 短 阵 


肺 部 CT 图 像 单元 数据 库 (Image block database, IBD) 是 
本 文 提出 的 肺 结 节 图 像 特征 提取 过 程 中 作为 最 重要 的 环节 。 这 


些 图 像 单 元 是 从 肺 结 节 图 像 中 随机 提取 出 来 ， 


不 同 的 肺 结 节 数 据 库 (LIDC-IDRI 和 ZSDB) 


性 
将 决定 特征 的 表征 精度 。 为 确保 IBD 的 多 样 性 及 使 其 平衡 ， 在 
选 


iv 合作 期 刊 


第 37 卷 第 1 期 


边 ) 及 其 对 应 的 聚 类 标签 (右边 )， 而 对 应 的 直方 图 
(bins-256) 如 图 1 (C) 所 示 。 通 过 聚 类 距离 矩阵 计算 出 对 


的 各 类 别 中 挑 


应 图 像 单元 的 标签 (K=10)。 图 像 单元 集 IDB 聚 类 标签 统计 如 


图 1D) 所 示 ， 从 图 中 的 分 布 曲线 可 以 看 出 由 


CA 和 BR 计算 得 


到 距离 矩阵 的 聚 类 统计 分 布 较 平 滑 。 为 定量 分 析 聚 类 结果 之 间 
的 优异 与 否 ， 本 文 使 用 Silhouette (SIL) 参数 计算 聚 类 的 相对 


出 平衡 数量 的 图 像 单元 。 对 图 像 单元 大 小 而 言 


， 因 为 目标 处 理 


的 肺 结 节 图 像 大 小 范围 为 3mm~30mm， 图 像 单元 不 能 太 大 也 
不 能 太 小 。 如 果 太 小 ， 处 理 之 后 更 接近 于 点 处 理 的 结果 从 而 会 
引入 噪声 ， 太 大 则 对 较 小 的 肺 结 节 带 来 较 大 误差 ， 因 此 一 般 采 
用 5x5、7x7 或 9x9 的 图 像 单元 大 小 。 单 元 大 小 会 影响 到 目标 
计算 图 像 的 平滑 效果 ， 较 大 的 单元 适用 于 大 型 肺 结 节 ， 而 对 小 


型 肺 结 节 不 能 使 用 太 大 《尺寸 ) 的 图 像 单元 集 。 在 每 一 个 肺 结 
节 图 像 随机 提取 图 像 单元 构造 出 各 类 数量 均衡 的 IBD。 


为 对 IBD 进行 聚 类 ， 先 计算 两 两 图 像 单元 之 间 的 距离 并 生 
成 IBD 的 距离 矩阵 h(ij)。 设 IBD 中 的 图 像 单 元 数量 为 N， 则 
h(i 为 大 小 为 NxN HIRIE. APESI CRAD 为 某 


个 单元 与 其 他 单元 的 距离 向 量 。 向 量 之 间 通 党 


的 距离 计算 方法 


包含 Euclid (EU), Canberra (CA), Chebyshev (CH). Braycurtis 


(BR) 等 多 种 模式 ， 为 保证 距离 值 之 间 具 有 最 大 
使 用 Canberra 距离 来 计算 向 量 之 间 的 距离 。 任 


算 公 式 如 下 : 
n Ip; - 4| 
d (p,qg) = BEL A. 
zi Clara 
da (P.D) 7 42i 
i=l 
do, Cp. q) = max|p, - qil 
È lp -a 
dy (p.q) = Ez 
Dip * 4| 
i=l 
其 中 为 向 量 的 长 度 。 


的 区 分 度 本 文中 


意 两 个 等 长 的 向 
量 p Ñ q 的 Canberra, Euclid, Chebyshev 及 Braycurtis 的 距离 计 


Q) 


G3) 


(4) 


(5) 


本 文中 通过 无 监督 聚 类 方法 对 距离 矩阵 进行 归 类 ， 聚 类 中 


心 数量 为 10 。 实 验 表 K-Means Xt Æ 7; 


Silhouette?! (SIL) 是 最 优 的 。 将 聚 类 结果 映射 至 IBD 并 找 出 


法 返回 结果 的 


对 应 图 像 单元 的 标签 ， 这 样 每 一 个 单元 都 被 标 上 记号 并 生成 被 


标记 的 图 像 单 元 数据 库 (Marked Image Block Database, MIBD )。 
此 时 ， 距 离 矩 阵 的 每 一 个 行 〈 或 列 ) 的 聚 类 结果 同时 也 是 距离 
向 量 所 对 应 的 图 像 单元 的 灰 度 密度 分 布 等 级 。IBD 聚 类 过 程 中 ， 


图 像 单元 、 距 离 矩 阵 及 聚 类 统计 结果 示意 图 如 
图 1 中 ,图 1〈A) 为 IDB 的 可 视 化 图 像 ， 


图 1 所 示 。 
其 中 1600 个 图 


像 单 元 排 成 [[40x7)x(40x7)] 的 矩阵 ， 图 中 蓝 色 和 深 橙 色 代表 图 


同 向 量 间距 离 计算 方法 (BR, CA, CH, EU) 的 


像 单元 最 小 与 最 大 的 灰 度 值 。 图 1 B) 的 1, 2, 3, 4 分 别 为 不 


自 相关 和 矩阵 〈 左 


[-1，1]。SIL 越 大 表明 性 能 越 好 《〈 最 好 时 为 1 


精度 。SIL 参数 由 类 间距 离 及 类 内 的 紧凑 度 构成 ， 分 布 范围 为 


)。CA 的 对 应 SIL 


为 最 大 0.4310， 因 此 本 文中 使 用 CA 距离 计算 方法 对 图 像 单元 


至 大 进行 排序 。 


集 进行 自 相关 分 析 。 本 文中 IDB 的 标签 已 按 类 别 中 心 的 值 从 小 


图 1 图 像 单元 集 图 像 及 其 自 相 关 和 失 阵 与 聚 类 统计 结果 


Fig.l Image unit set image and its autocorrelation matrix and clustering 


statistical results 


1.2.2. 基于 图 像 单 元 灰 度 密度 分 布 特征 获取 


IBD 进行 聚 类 后 ， 对 肺 结 节 图 像 遍历 计算 每 一 个 非 背 景 像 
素 的 灰 度 密度 分 布 等 级 。 在 此 过 程 中 ， 以 目标 像素 为 中 心 提取 


遍历 窗口 T, Oo AARET IBD 中 图 像 单元 的 大 小 。 通 


过 欧式 距离 的 计算 ， 搜 寻 BD 中 与 之 匹配 的 单元 (距离 最 小 


的 Js 记 为 Lodo y) , 见 式 (6) 


L, aed (X, Y) = arg min (|JBD,, Les (x, y)|) (6) 
iell,N] 


此 时 ， 了 (xy) 在 聚 类 结果 中 的 标签 为 L(x,y) 的 灰 度 


密度 分 布 等 级 ， 即 
Level(1,, (x, y)) = Label, sul 


test 


test. 


x,y) () 


依次 计算 肺 结 节 图 像 中 全 部 非 零 像 素 的 密度 分 布 等 级 最 终 
得 到 肺 结 节 的 CT 值 密度 分 布 图 像 。 该 图 像 的 有 效 值 数量 为 10 
〈l~10)， 在 这 过 程 中 将 灰 度 密度 分 布 等 级 代替 了 像素 原 有 的 
值 。 本 文 将 密度 分 布 特征 作为 肺 结 节 的 识别 特征 ， 用 于 机 器 学 


习 训练 的 标准 特征 向 量 集 。 特 征 提 取 过 程 示 意图 如 图 2 所 示 。 


2 中 ，(a) 为 肺 结 节 图 像 ， (b) 为 肺 结 节 图 像 的 灰 度 密度 


分 布 图 像 ， (c) 为 饼 图 表示 的 特征 向 量 。 通 过 密度 分 布 图 像 可 


以 看 出 肺 结 节 内 的 HU 值 高 低 分 布 情况 有 助 了 


FF 定量 估计 实质 部 
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" 
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分 的 位 置 及 大 小 从 而 提高 


Vanbang Le， 等 : 图 像 灰 度 


床 医生 对 肺 结 节 分 类 的 准 


mo 


2 ” 肺 结 节 基 


eigenvector schematic map 


1.3 ”随机 森林 分 类 器 及 模式 识别 评价 


C Sensitivity ) , 
operating characteristic ) 
HURE (Sensitivity) A 
性 能 的 “阳性 


统计 分 类 怕 


其 中 : 

(false posi 
negative, TN) 
= 错误 的 


性 


AUC (area under the curve, AUC) 被 | 
AUC 值 越 大 说 明 分 类 器 性 能 越 优 。 识 别 精度 Accuracy 的 计算 


ARN: 
Accuracy = Ža EREN 
2 实验 结果 与 分 析 
本 节 展 示 验 证 数据 库 的 分 类 性 能 的 实验 效果 及 其 


分 类 模型 实验 配置 具 
estimator = 100; 对 


10 ; 


2.1 


H a6 


EKE 


本 文中 使 用 
该 分 类 器 是 包含 多 个 决策 树 的 分 类 器 。 
异性 ( Specificity ) , 
线 及 识别 精度 〈Accuracy )。 
阳性 率 (True positive rate, TPR ) 为 
”样本 正确 判别 率 ， 数 学 模型 为 


异性 (specificity) 或 AHY 
的 “阴性 ”样本 正确 判别 率 ， 数 学 公式 为 : 


ME. 


Æ: (true positive, TP) = 正确 类 


tive, FP) 


IB SHELL 


Sensivity = 


Specificity — 


E 确 判断 为 假 ， 假 阴性 : 


线 通过 医 


率 (TPR) KIR 


EAR. 


rH 


随机 森林 (Random forest) 方法 作为 分 类 器 ， 
分 类 评价 参 
ROC ( Receiver 


度 分 布 计 算 模型 及 肺 结 节 良 恶 性 分 
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从 图 3 中 可 以 看 


jb 结 节 的 密度 图 中 各 个 类 别 一 般 以 环形 


围绕 着 中 心 点 ， 最 外 围 为 最 小 值 (ks=1)， 因 此 在 特征 向 量 中 


第 一 分 量 均 为 非 零 的 。 对 了 


F LIDC-IDRI 数 据 库 特 征 向 量 中 低 等 


级 密度 占据 的 比例 从 rank 1 28 rank 5 稳定 递减 而 高 等 级 的 密度 


比例 则 为 递增 的 。LIDC-IDRI 9 


高 分 布 等 级 比例 的 排序 为 rank 


1 <rank2<rank3<rank4<rank5。LIDC-IDRI 肺 结 节 的 灰 度 


单元 集 的 布 图 像 和 特征 向 


Fig.2 Lung nodule based on image unit set density distribution image and 


TP 
TP + FN 


TN 
TN + FP 


— 


"EX« (true negative rate, TNR) 


= 错误 的 判断 为 


像 方式 对 二 分 类 模型 进行 评价 
性 率 (FPR) 构成 。 


(false negative, FN) 


ROC 


piti 


密度 分 布 特征 具有 可 靠 的 统计 意义 ， 各 类 特征 向 量 之 间 差 异 很 


明显 且 稳定 ， 非 常 有 助 于 提 


高 肺 结 节 良 恶性 的 分 类 性 能 。 


LIDC-IDRI 样本 的 灰 度 密度 


Sipsi 


村 征 均 值 如 图 4 所 示 。 


zr 


图 3 基于 图 


集 灰 度 密度 分 布 特征 示意 区 


Fig.3 Gray scale density distribution based on image subblock 


Values 


DS 


4 密度 分 布 平均 特征 向 量 


Components l 


; 中 间 : LS2; 右 : LS1+LS2) 


Fig.4 Average eigenvector of density distribution (left: LS1; middle: 


LS2; right: LS1+LS2) 
对 于 LIDC-IDRI 数 据 库 ， 小 型 和 大 型 肺 结 节 的 良 恶 性 特征 


-0.5 (ms). 


体 如 下 : 分 类 器 为 随机 森林 CRF), 
LIDC-IDRI 的 训练 和 测试 样 
50:50 (960; 每 一 个 子 集 分 别 做 100 次 实验 并 计算 平均 的 性 能 
评价 参数 值 。 实 验 平台 配置 : 编程 语言 : 


Python 3.0-Windows 
Processor Intel(R) Core(TM) 17-6700HQ 
2.60GHz (8CPUs); GPU Geforce 960; RAM 8Gb 。 实 验 过 程 中 ， 
提出 的 系统 运算 效率 较 高 并 满足 实时 性 处 理 要 求 ， 身 
的 平均 运行 时 间 为 35 
节 图 像 特征 提取 与 分 析 
LIDC-IDRI 数据 库 中 的 样本 聚 类 结果 展 


展示 图 如 图 3 所 示 。 


分 布 虽然 具有 一 定 的 区 分 度 但 差异 并 不 明显 ，rank 1 至 rank 5 


平均 曲线 的 趋势 较 类 似 ， 尤 其 


体 的 LS1+LS2 而 言 ，rank 1 


度 值 小 于 -663HU ) 之 和 分 


[ 径 大 于 10mm 的 LS2。 对 整 
至 rank 5 平均 向 量 前 四 个 分 量 〈 密 
别 为 51.396, 55.2496, 55.6396, 


38.529481 32.01% 而 最 后 4 个 分 量 〈 密 度 值 大 于 -282HU) 的 总 


和 依次 为 11.19%，12.57%，12.85%，26.61% 和 34.83%。 其 中 
后 四 个 分 量 〈 代 表 实 质 性 区 域 比例 ) 的 排序 均 为 rank 1<rank 
2« rank 3< rank 4< rank 5。 从 而 可 


分 布 趋势 为 低 等 级 分 量 上 


la 


以 看 出 rank 1~5 的 特征 向 量 


逐渐 降低 而 高 等 级 密度 分 量 则 相反 。 


综 上 所 述 ， 临 床 应 


统计 密度 特征 可 以 更 


2.2 ” 肺 结 节 图 像 的 分 类 


是 CF1， 而 当 rank 3 的 肺 结 节 
CF3) 时 评价 指数 低 一 些 。 
异性 统计 如 表 2 所 示 。 


过 观察 肺 结 节 的 密度 分 布 图 以 及 
观 地 表达 病灶 的 结构 ， 有 助 于 提高 诊断 


集 上 (LS1+LS2) 分 类 性 能 最 好 的 
baje" 良 或 恶性 类 别 (CF2 与 
平价 参数 的 AUC， 敏 感度 和 特 
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表 2 LIDC-IDRI 分 类 性 能 评价 参数 统计 良 恶性 分 类 的 有 效 性 ， 同 时 也 证 明了 所 提出 特征 的 分 类 性 能 优 
Table 2 Evaluation parameter statistics of LIDC-IDRI classification 于 图 像 2D/3D 几何 和 纹理 特征 。 
performance evaluation parameter Statistics 表 3 分 类 性 能 与 对 比 
LS1+LS2 (所 有 样本 ) Table 3 Comparison of classification performance 
Cfs. AUC 敏感 度 特异 性 Configurations CF1 CF2 CF3 
CF1 0.9681+0.0055 0.9333+0.0255 0.8786+0.0250 本 文 特 征 0.9681 0.9405 0.8070 
CF2 0.9405+0.0065 0.8742+0.0317 0.8800+0.0137 几何 和 纹理 特征 * 0.8784 0.8108 0.7210 
CF3 0.8070+0.0129 0.723940.0297 0.72964:0.0476 文献 [10] 0.9505 0.8822 0.8488 
LS1- 较 小 的 结 节 文献 [9] 0.9450 0.8703 0.8315 
CFI  0.9820+0.0043 0.9114+0.0324 0.9475+0.0132 * 本 文 数据 使 用 Dharato 提 出 几何 和 纹理 特征 时 的 ROC. 
CF2 0.9702+0.0045 0.866140.0413 0.94364:0.0108 , 
CF3 0.7681420.0148 0.59584:0.0402 0.8047-0.0573 3 RE 
LS2- 较 大 的 结 节 本 文中 提出 一 种 基于 图 像 子 块 集 的 肺 结 节 灰 度 密度 分 布 特 
CF1 0.927340.0196 0.9347+0.0416 0.5894+0.1452 征 计 算 方法 。 首 先 从 肺 结 节 图 像 集 随机 挑选 得 到 一 致 大 小 的 若 
CF2 0.8203+0.0263 0.8897+0.0494 0.5934+0.0671 干 图 像 单 元 构成 单元 集 。 然 后 计算 该 数据 集 的 自 相 关 和 矩阵 并 将 
CF3 0.8941+0.0219 0.9603::0.0238 0.3839:0.1497 距离 矩阵 聚 为 10 类 ， 获 得 对 应 图 像 单元 的 聚 类 标签 。 最 后 通 
fs.: 样本 规划 方案 (Configurations) 过 遍历 肺 结 节 图 像 ， 每 一 个 像素 与 周围 邻近 点 构成 的 窗口 与 图 
表 2 看 出 对 于 LS1， 性 能 评价 排序 为 CF1>CF2>CF3 而 像 单 元 集 对 照 ， 寻 找 最 匹配 的 单元 ， 该 单元 的 标签 则 为 测试 像 


对 于 LS2 为 CF1>CF3>CF2。 从 而 可 以 判断 LIDC-IDRI 中 的 素 的 灰 度 密度 分 布 等 级 。 最 终 统 计 肺 结 节 图 像 的 密度 分 布 图 获 
rank 3 小 型 肺 结 节 较 倾向 于 良性 的 ， 而 大 型 的 则 倾向 于 恶性 的 。 取 其 特征 。 实 验 结果 与 对 比分 析 表 明 ， 基 于 密度 分 布 的 特征 订 
于 LS1 的 样本 较 大 LIDC-IDRI 中 多 数 肺 结 节 均 小 于 10mm)， ”估算 法 县 有 能 有 效 的 对 肺 结 节 良 恶性 等 级 进行 分 类 的 能 力 。 本 
故 整体 数据 上 rank 3 的 肺 结 节 更 具有 良性 肺 结 节 的 特征 。 文 的 研究 结果 为 肺 结 节 临 床 辅助 诊断 提供 了 新 的 方法 ， 同 时 也 
LIDC-IDRI 测试 样本 的 识别 精度 对 于 CF1，CF2 和 CF3 分 ”对 中 国 或 亚洲 地 区 的 肺癌 早期 诊断 系统 的 发 展 有 参考 价值 。 

别 为 0.9008, 0.8782 与 0.7258。 其 中 阳性 /阴性 预测 交叉 矩阵 
如 图 5 所 示 。 其 中 ，Bn 表示 良性 (Benign); M 表示 恶性 

(Malignant)。 左 至 右 分 别 为 CF1，CF2 和 CF3)。)。 由 于 rank [1] 张 满 . 孤立 性 肺 结 节 良 恶性 预测 模型 的 建立 [D]. 广州 : 南方 医科 大 学 ， 
3 肺 结 节 的 干扰 ，CF1 的 分 类 性 能 较 稳 定 于 CF2 和 CF3 。 2016. (Zhang Man. Establishment of a mathematic model for predicting 


A 


malignancy in solitary pulmonary nodules [D]. Guangzhou: Southern 


一 ;' dii — Medical University, 2016. ) 
Q È 2| gom Q8. [2] Armato S G, McLennan G, et al. The lung image database consortium (LIDC) 
z = ; - and image database resource initiative (IDRI): a completed reference 
i Predict Labels database of lung nodules on CT scans [J]. Medical physics, 2011, 38 (2): 
图 5 LIDC-IDRI 的 平均 交叉 检验 矩阵 915-931. 
Fig.5 mean cross test matrix of LIDC-IDRI [3] Welch H G, Woloshin S, Schwartz L M, et al. Overstating the evidence for 
如 上 述 所 说 ，rank 3 的 样本 对 LIDC-IDRI 良 恶 性 分 类 性 能 lung cancer screening: the international early lung cancer action program (I- 
影响 很 大 ， 使 用 的 数据 中 rank 3 肺 结 节 数量 越 多 在 理论 上 分 类 ELCAP) study [J]. Archives of Internal Medicine, 2007, 167 (21): 2289- 
效果 越 不 稳定 。 对 于 实验 数据 结构 而 言 ， 相 较 于 Han 等 人 名 2295. 
C 172 样本 ) 和 Dhara HA (349 样本 )， 本 文 使 用 的 rank 3 样 [4] National Lung Screening Trial Research Team. Reduced lung-cancer 
本 数量 为 387， 数 据 集 给 分 类 模型 带 来 的 困难 较 大 。 虽 然 如 此 ， mortality with low-dose computed tomographic screening [J]. New England 
利用 本 文 所 提出 的 灰 度 密度 分 布 特征 ， 测 试 数据 时 仍然 获得 非 Journal of Medicine, 2011, 365 (5): 395-409. 
常 可 观 的 评价 指标 。 其 中 CF1，CF2 和 CF3 的 平均 AUC 分 别 — [5] Je. 不 规则 形态 肺 结 节 的 分 割 及 毛刺 检测 研究 [D]. 广州 : 南方 医 
为 0.9681, 0.9405 和 0.8070。 本 文 提出 灰 度 密度 分 布 特征 与 几 科大 学 ,2015. (Xing Qianqian. Research on irregular lung nodule automatic 
何 和 纹理 特征 的 ROC 对 比如 表 3 所 示 。 表 3 中 可 以 看 出 虽 segmentation and spiculation detection [D]. Guangzhou: Southern Medical 
然 rank 3 样本 数量 较 大 但 是 本 文 提 出 的 分 类 模型 在 三 种 样本 先 University, 2015. ) 
验 规 划 下 性 能 均 略 高 于 文献 [9] 和 [10] 提 出 的 基于 几何 和 纹理 特 [6] Tan Yongqiang, Schwartz L H, Zhao Binsheng. Segmentation of lung lesions 
征 的 分 类 模型 。 此 表明 所 提出 的 灰 度 密度 分 布 特征 对 肺 结 节 on CT scans using watershed, active contours, and Markov random field [J]. 
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